大模型给自己当裁判并不靠谱!上交揭示LLM-as-a-judge机制缺陷
大语言模型(LLM)正从工具进化为“裁判”(LLM-as-a-judge),开始大规模地评判由AI自己生成的内容。这种高效的评估范式,其可靠性与人类判断的一致性,却很少被深入验证。
大语言模型(LLM)正从工具进化为“裁判”(LLM-as-a-judge),开始大规模地评判由AI自己生成的内容。这种高效的评估范式,其可靠性与人类判断的一致性,却很少被深入验证。
大语言模型(LLM)正从工具进化为“裁判”(LLM-as-a-judge),开始大规模地评判由AI自己生成的内容。这种高效的评估范式,其可靠性与人类判断的一致性,却很少被深入验证。
依托百度自研的深度学习平台飞桨和文心大模型,AICA目标培养复合型AI架构师,简单来说,就是既能参与技术开发,又能确保项目落地。
AI 应用公司,能否复刻甚至超越移动互联网时代的商业奇迹?AI 原生应用如何突破传统流量红利,打造新型变现模式?AI 与移动互联网时代的用户生态和商业边界到底有多大差异?当 AI 成为平台能力,用户还需要装那么多 App 吗?从技术能力到商业价值,AI 公司还
近期,关于AI写作的一项新研究颠覆了人们对AI创作同质化的传统认知。研究发现,只需在AI开始写作前加入人类提供的简短开头或随机词汇,AI生成的文本内容便能展现出更高的多样性。
创意 llm 写作 词汇 writingprompts 2025-08-16 19:37 2
实验结果显示,在Short Stories数据集上,人类的文体特征方差最低,表明人类在该数据集写作风格较为统一,而模型则表现出更丰富的风格多样性。
新产品的核心是一款桌面AI机器人,据称就像一台装在可移动机械臂上的iPad。它可以旋转,让屏幕朝向用户,方便用户在家中或办公室内移动。消息人士称,目前的原型机采用约7英寸的水平显示屏,而机械臂可以将屏幕向任何方向移动,使其能远离底座约6英寸。
苹果正在研发的类iPad智能家居中心,其推出时间将延后至2026年中期。古尔曼此前曾透露,该设备最早有望在2025年亮相,但因Apple Intelligence版本的Siri出现问题,导致上市计划被迫推迟。
llm siri charismatic charismat 2025-08-15 00:24 3
本文第一作者周鑫、共同第一作者梁定康,均为华中科技大学博士生,导师为白翔教授。合作者包括华中科技大学涂思凡,旷视科技丁宜康,迈驰智行陈习武、谭飞杨,香港大学赵恒爽助理教授。
技术背景:TEXT2SQL 是将自然语言查询转为 SQL 的任务,经历了基于规则、神经网络、预训练语言模型、大语言模型四个阶段。当前面临提示优化、模型训练、推理时增强三大难题,研究基于 BIRD 数据集展开。
这次升级,将上下文从原本的 20 万 Token 一口气提升 5 倍——百万上下文究竟有多大?相当于一次性放进整套《哈利·波特》全集。
稀疏激活的混合专家模型(MoE)通过动态路由和稀疏激活机制,极大提升了大语言模型(LLM)的学习能力,展现出显著的潜力。基于这一架构,涌现出了如 DeepSeek、Qwen 等先进的 MoE LLM。
在本文中,我会分享一些改进 RAG(检索增强生成)应用程序中检索的出色技术。最近在一个客户项目中使用了这些技术,将系统的召回率从大约 50-60% 一直提高到 95% 及以上。
从一开始的语言润色和结构优化,到如今直接参与段落生成,先不说正确程度如何,如我们所见,AI正在走进更多的学术写作过程之中。最近发表在《Nature Human Behaviour》上的一项研究,首次以大规模统计方式量化了这一趋势。
随着 Gemini-Diffusion,Seed-Diffusion 等扩散大语言模型(DLLM)的发布,这一领域成为了工业界和学术界的热门方向。但是,当前 DLLM 存在着在推理时必须采用预设固定长度的限制,对于不同任务都需要专门调整才能达到最优效果。
近日,开源机器学习框架 PyTorch 迎来了全新版本2.8的正式发布。这一版本的发布备受关注,主要集中在提升量化大语言模型(LLM)的推理性能,尤其是在 Intel CPU 上的表现。此次更新不仅显著增强了在离线模式下的推理效率,还首次实验性支持了 Inte
国家知识产权局信息显示,江西电信信息产业有限公司申请一项名为“基于LLM大小模型协同训练的方法、介质及设备”的专利,公开号CN120449937A,申请日期为2025年04月。
可验证奖励强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)是一种基于参考标准的训练范式,其核心在于通过基于规则的函数或生成式LLM评判器来提供奖励信号。在RLVR训练过程中,奖励模型接收问题q
自 2021 年夏季 GitHub Copilot 以预览版问世 以来,编程助手产品呈现爆发式增长。这类工具最初被用作增强型代码补全工具,而 Cursor、Windsurf 等产品则迅速转向了 Agent 交互模式:通过自然语言指令触发,助手能自主执行修改代码
当您阅读本文时,想象一下您是一个新的宠物用品品牌,正在与零售商 Hollywood Feed 展开正面交锋。